Эффективный алгоритм проверки эквивалентности строк с учетом аббревиатур для PostgreSQL
Руководитель от корпоративного партнера:
Старичков Н.Ю., 1C
Руководитель от Университета ИТМО: Авксентьева Елена Юрьевна,
Университет ИТМО
Открытых вакансий: 2
Краткая аннотация
Разработка эффективного алгоритма проверки эквивалентности строк с учетом аббревиатур для PostgreSQL Операции объединения таблиц в реляционных СУБД - одни из самых дорогостоящих. При этом часто объединение проводится по отношению эквивалентности, достаточно часто выполняется сравнение строк. При этом нередко бывает ситуация, когда строковые данные могут быть записаны в разных форматах - в частности, с использованием аббревиатур. Простой пример - в одной таблице может быть записано “Университет ИТМО”, а в другой - “Университет информационных технологий, механики и оптики”. Очевидно, что с позиции человека эти строки идентичны, с позиции машины - они разные. Существует несколько алгоритмов, проверяющих эквивалентность строк с учетом аббревиатур - но, как было сказано выше, крайне важно, чтобы эти алгоритмы работали не только точно, но и быстро. Разработке и реализации подобного алгоритма в применении к СУБД PostgreSQL и посвящен данный проект.
План действий
- Исследование алгоритмов проверки эквивалентности строк для PostgreSQL
- Исследование алгоритмов проверки эквивалентности строк с учетом аббериатур для PostgreSQL
- Анализ алгоритмов с целью определения необходимых алгоритму ресурсов.
- Проектирование, разработка и тестирование эффективного алгоритма проверки эквивалентности строк с учетом аббревиатур для PostgreSQL
Решаемые технические проблемы
Повышение эффективности алгоритмов проверки эквивалентности строк в системах управления базами данных
Стек технологий
- User and Organizations
- Инструменты гибкой разработки Agile, Scrum, Kanban
- Тайм-менеджмент и планирование временем
- System Modeling
- Системное моделирование с использованием языков UML/SysML
- Анализ требований
- System Architecture and Infrastructure
- Методы проектирование программных систем
- Методы проектирования интеллектуальных систем
- Организация параллельных и распределенных вычислений
- Компьютерные сети
- Виртуальные системы и сервисы
- Software Development
- Программирование на языках C++, Java, Python
- Использование стандартных библиотек С++, Boost, библиотек Python для обработки, анализа и визуализации данных
- Web-разработка с использованием HTML, CSS, Java Script, PHP.
- СУБД PostgreSQL
- Software Fundamentals
- Алгоритмы и структуры данных
- Операционные системы реального времени
- Hardware
- Архитектура вычислительных систем
Предварительный перечень курсов
- Обработка и анализ данных https://openedu.ru/course/ITMOUniversity/BIGDATA2035/
- Прикладной искусственный интеллект https://openedu.ru/course/ITMOUniversity/APPARTINT2035/
- Методы машинного обучения https://openedu.ru/course/ITMOUniversity/INTROML/
- Интеллектуальный анализ данных https://openedu.ru/course/ITMOUniversity/MLDATAN/
- Хранилища и базы данных https://openedu.ru/course/spbu/DTBS/
- Технологии веб-сервисов https://www.specialist.ru/course/1cwebs
- Параллельные вычисления https://mipt.ru/online/algoritmov-i-tekhnologiy/raspr-calc.php
- Распределенные вычисления https://mipt.ru/online/algoritmov-i-tekhnologiy/raspr-calc.php
- Администрирование PostgreSQL 9.4. Базовый Курс https://www.youtube.com/watch?v=h_GdEaF1Ymc&list=PLaFqU3KCWw6KzGwUubZm-9-vKsi6vh5qC&index=2
- Специализация Learn SQL Basics for Data Science https://ru.coursera.org/specializations/learn-sql-basics-data-science
- Intermediate PostgreSQL https://ru.coursera.org/learn/intermediate-postgresql
- Библиотека программиста https://proglib.io/p/postgresql/
- Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных http://www.machinelearning.ru/
Кем станет студент по завершению магистратуры
Программист-стажер, программист, разработчик систем машинного обучения и ИИ
Пререквизиты (входные требования)
Базовые программы курсов:
- Высшая математика
- Основы программирования
- Алгоритмы и структуры данных
- Программная инженерия
- Архитектура программных систем
- Базы данных